The Effect of Modeling Human Rationality Level on Learning Rewards from Multiple Feedback Types
نویسندگان
چکیده
When inferring reward functions from human behavior (be it demonstrations, comparisons, physical corrections, or e-stops), has proven useful to model the as making noisy-rational choices, with a "rationality coefficient" capturing how much noise entropy we expect see in behavior. Prior work typically sets rationality level constant value, regardless of type, quality, feedback. However, many settings, giving one type feedback (e.g. demonstration) may be more difficult than different answering comparison query). Thus, less depending on In this work, advocate that grounding coefficient real data for each rather assuming default significant positive effect learning. We test both simulated experiments and user study find overestimating can have dire effects learning accuracy regret. also fitting enables better learning, even when deviates significantly choice due systematic biases. Further, affects informativeness type: surprisingly, demonstrations are not always most informative---when acts very suboptimally, comparisons actually become informative, is same both. Ultimately, our results emphasize importance advantage paying attention assumed human-rationality-level, especially agents actively learn multiple types
منابع مشابه
the effect of explicit teaching of metacognitive vocabulary learning strategies on recall and retention of idioms
چکیده ندارد.
15 صفحه اولthe effect of traffic density on the accident externality from driving the case study of tehran
در این پژوهش به بررسی اثر افزایش ترافیک بر روی تعداد تصادفات پرداخته شده است. به این منظور 30 تقاطع در شهر تهران بطور تصادفی انتخاب گردید و تعداد تصادفات ماهیانه در این تقاطعات در طول سالهای 89-90 از سازمان کنترل ترافیک شهر تهران استخراج گردید و با استفاده از مدل داده های تابلویی و نرم افزار eviews مدل خطی و درجه دوم تخمین زده شد و در نهایت این نتیجه حاصل شد که تقاطعات پر ترافیک تر تعداد تصادفا...
15 صفحه اولthe effect of audio-taped feedback and conferencing on efl students’ writing ability
: بازخورد یکی از جنبه ها ی ضروری هر دوره ی آموزشی نگارشی – زبانی انگلیسی می باشد که به زبان آموزان مهارت های مورد نیاز جهت بهبود توانایی نگارشی را می آموزد. این تحقیق، با استفاده از طرح پیش آزمون، پس آزمون، و پسا آزمون ، سعی دارد تا تأ?یر نوع بازخورد مدرس در کمک به زبان آموزان جهت بازنویسی نوشته هایشان رابررسی کند ، و آیا اینکه رابطه ای بین نوع بازخورد مدرس و توانایی زبان آموزان در تصحیح غلط ها...
the effect of authentic listening materials on the listening proficiency of efl learners in the intermediate level
having conducted the experiment and analysed the data, the researcher computed the groups mean scores and variances for the test relating to the research question. as the final atep, a t-test was conodonted for the hypothesis. as noted earlier, the significance level was determined at .05 and .01 respectively. the observed t-value was higher than the critical t-value at. 5 and .01 levels. conse...
15 صفحه اولذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ژورنال
عنوان ژورنال: Proceedings of the ... AAAI Conference on Artificial Intelligence
سال: 2023
ISSN: ['2159-5399', '2374-3468']
DOI: https://doi.org/10.1609/aaai.v37i5.25740